智能论文笔记

Protein language models trained on multiple sequence alignments learn phylogenetic relationships

Umberto Lupo , Damiano Sgarbossa , Anne-Florence Bitbol

分类：机器学习

2022-03-29

最近，自我监督的神经语言模型最近已应用于生物序列数据，进步的结构，功能和突变效应预测。一些蛋白质语言模型，包括MSA变压器和Alphafold的Evoformer，将进化相关蛋白的多个序列比对作为输入。 MSA Transformer的行专注的简单组合导致了最新的无监督结构接触预测。我们证明，MSA变压器柱浓度的简单和通用组合与MSA中序列之间的锤距距离密切相关。因此，基于MSA的语言模型编码详细的系统发育关系。我们进一步表明，这些模型可以将编码功能和结构约束的共同进化信号与反映历史意义的系统发育相关性分开。为了评估这一点，我们从POTTS模型中生成了在天然MSA训练的POTTS模型的合成MSA。我们发现，当使用MSA变压器与推断的POTTS模型时，无监督的接触预测对系统发育噪声的弹性更大。

translated by 谷歌翻译

High-Fidelity Simulation and Novel Data Analysis of the Bubble Creation and Sound Generation Processes in Breaking Waves

Qiang Gao , Grant B. Deane , Saswata Basak , Umberto Bitencourt , Lian Shen

分类：计算机视觉

2022-11-06

Recent increases in computing power have enabled the numerical simulation of many complex flow problems that are of practical and strategic interest for naval applications. A noticeable area of advancement is the computation of turbulent, two-phase flows resulting from wave breaking and other multiphase flow processes such as cavitation that can generate underwater sound and entrain bubbles in ship wakes, among other effects. Although advanced flow solvers are sophisticated and are capable of simulating high Reynolds number flows on large numbers of grid points, challenges in data analysis remain. Specifically, there is a critical need to transform highly resolved flow fields described on fine grids at discrete time steps into physically resolved features for which the flow dynamics can be understood and utilized in naval applications. This paper presents our recent efforts in this field. In previous works, we developed a novel algorithm to track bubbles in breaking wave simulations and to interpret their dynamical behavior over time (Gao et al., 2021a). We also discovered a new physical mechanism driving bubble production within breaking wave crests (Gao et al., 2021b) and developed a model to relate bubble behaviors to underwater sound generation (Gao et al., 2021c). In this work, we applied our bubble tracking algorithm to the breaking waves simulations and investigated the bubble trajectories, bubble creation mechanisms, and bubble acoustics based on our previous works.

translated by 谷歌翻译

UniToBrain dataset: a Brain Perfusion Dataset

Daniele Perlo , Enzo Tartaglione , Umberto Gava , Federico D'Agata , Edwin Benninck , Mauro Bergui

分类：计算机视觉 | 机器学习

2022-08-01

CT灌注（CTP）是一项体检，用于测量对比度溶液通过像素逐像素的大脑通过大脑的通过。目的是为缺血性病变迅速绘制“灌注图”（即脑血体积，脑血流量和峰值的时间），并能够区分核心和甲瘤区域。在缺血性中风的背景下，精确而快速的诊断可以确定脑组织的命运，并在紧急情况下指导干预和治疗。在这项工作中，我们介绍了UnitObrain数据集，这是CTP的第一个开源数据集。它包括一百多名患者的队列，并伴随着患者元数据和最新算法获得的地面真相图。我们还建议使用欧洲图书馆ECVL和EDDL进行图像处理和开发深度学习模型，提出了一种基于神经网络的新型算法。神经网络模型获得的结果与地面真相相匹配，并为所需数量的CT地图的潜在子采样开辟了道路，这对患者施加了重辐射剂量。

translated by 谷歌翻译

Stable Parallel Training of Wasserstein Conditional Generative Adversarial Neural Networks

Massimiliano Lupo Pasini , Junqi Yin

分类：人工智能 | 计算机视觉 | 机器学习

2022-07-25

我们建议在固定计算预算的约束下，提出一种稳定的，平行的方法来训练Wasserstein条件生成的对抗神经网络（W-CGANS）。与以前的分布式gan训练技术不同，我们的方法避免了过程间通信，降低了模式崩溃的风险并通过使用多个发电机来增强可扩展性，每个发电机都同时在单个数据标签上进行了训练。 Wasserstein度量的使用还通过稳定每个发电机的训练来降低骑自行车的风险。我们说明了CIFAR10，CIFAR100和IMAGENET1K数据集上的三个标准基准图像数据集上的方法，并维护每个数据集的图像的原始分辨率。在有限的固定计算时间和计算资源中，根据可伸缩性和最终准确性评估了性能。为了衡量准确性，我们使用成立得分，特征构成距离和图像质量。与以前的结果相比，通过在深卷积有条件的有条件生成的对抗神经网络（DC-CGANS）上执行并行方法相比，展示了成立评分和特征造成距离的改善，以及改善由新图像的图像质量的改善。甘斯的方法。在OLCF超级计算机峰会上使用多达2,000个NVIDIA V100 GPU的两个数据集都达到了弱缩放。

translated by 谷歌翻译

Scalable training of graph convolutional neural networks for fast and accurate predictions of HOMO-LUMO gap in molecules

Jong Youl Choi , Pei Zhang , Kshitij Mehta , Andrew Blanchard , Massimiliano Lupo Pasini

分类：机器学习 | 人工智能

2022-07-22

图形卷积神经网络（GCNN）是材料科学中流行的深度学习模型（DL）模型，可从分子结构的图表中预测材料特性。训练针对分子设计的准确而全面的GCNN替代物需要大规模的图形数据集，并且通常是一个耗时的过程。 GPU和分布计算的最新进展为有效降低GCNN培训的计算成本开辟了道路。但是，高性能计算（HPC）资源进行培训的有效利用需要同时优化大型数据管理和可扩展的随机批处理优化技术。在这项工作中，我们专注于在HPC系统上构建GCNN模型，以预测数百万分子的材料特性。我们使用Hydragnn，我们的内部库进行大规模GCNN培训，利用Pytorch中的分布数据并行性。我们使用Adios（高性能数据管理框架）来有效存储和读取大分子图数据。我们在两个开源大规模图数据集上进行并行训练，以构建一个称为Homo-Lumo Gap的重要量子属性的GCNN预测指标。我们衡量在两个DOE超级计算机上的方法的可伸缩性，准确性和收敛性：橡树岭领导力计算设施（OLCF）的峰会超级计算机和国家能源研究科学计算中心（NERSC）的Perlmutter系统。我们通过HydragnN表示我们的实验结果，显示I）与常规方法相比，将数据加载时间降低了4.2倍，而II）线性缩放性能在峰会和Perlmutter上均可训练高达1,024 GPU。

translated by 谷歌翻译

Derivate Informed Neural Operator: An Efficient Framework for High-Dimensional Parametric Derivative Learning

Thomas O'Leary-Roseberry , Peng Chen , Umberto Villa , Omar Ghattas

分类：机器学习

2022-06-21

由于神经操作员能够在功能空间之间近似高维参数图，因此最近引起了重大关注。目前，在神经操作员文献中仅解决了参数函数近似。在这项工作中，我们调查将参数导数信息纳入神经操作员培训中；该信息可以改善功能近似值，此外，它可用于改善衍生物相对于参数的近似值，这通常是高维外环问题的可扩展解决方案的关键（例如，贝叶斯逆问题）。参数雅各布信息由于其高维度而正式棘手，可以正式地合并，以解决我们基于减少的SVD，随机草图和减少基础替代物的使用提出的这种关注。所有这些策略仅需要$ O（r）$ jacobian动作来构建样本雅各布数据，并允许我们减少与雅各布培训相关的线性代数和内存成本，从输入和输出维度的产品中降低到$ o。（r^2）$，其中$ r $是与缩小技术相关的维度。参数PDE问题的数值结果表明，在训练问题中添加导数信息可以显着改善参数图近似值，尤其是在几乎没有数据的情况下。与参数图相比，当雅各布动作相比便宜时，可以在经济上代替参数地图数据。此外，我们表明，随着Jacobian培训数据的引入，Jacobian误差近似显着改善。该结果为在外环算法中使用衍生知识的神经操作员（恐龙）打开了大门，他们可以通过重复评估来摊销额外的培训数据成本。

translated by 谷歌翻译

Mining the manifolds of deep generative models for multiple data-consistent solutions of ill-posed tomographic imaging problems

Sayantan Bhadra , Umberto Villa , Mark A. Anastasio

分类：计算机视觉

2022-02-10

通常，层析成像是一个不适合的反问题。通常，从断层扫描测量中获得了拟距对象的单个正则图像估计。但是，可能有多个与相同的测量数据一致的对象。生成此类替代解决方案的能力很重要，因为它可以实现成像系统的新评估。原则上，这可以通过后采样方法来实现。近年来，已经采用了深层神经网络进行后验采样，结果令人鼓舞。但是，此类方法尚未用于大规模断层成像应用。另一方面，经验抽样方法在大规模成像系统上可能是可行的，并且可以对实际应用实现不确定性量化。经验抽样涉及在随机优化框架内求解正规化的逆问题，以获得替代数据一致的解决方案。在这项工作中，提出了一种新的经验抽样方法，该方法计算了与同一获得的测量数据一致的层析成像逆问题的多个解决方案。该方法通过在基于样式的生成对抗网络（stylegan）的潜在空间中反复解决优化问题的运行，并受到通过潜在空间探索（PULSE）方法的照片启发，该方法是为超分辨率任务开发而成的。通过涉及两种程式化的层析成像模式的数值研究来证明和分析所提出的方法。这些研究确定了该方法执行有效的经验抽样和不确定性定量的能力。

translated by 谷歌翻译

An Introduction to Autoencoders

Umberto Michelucci

分类：机器学习 | 人工智能

2022-01-11

在本文中，我们会查看AutoEncoders。本文涵盖了自动化者的数学和基本概念。我们将讨论它们是什么，典型用例的限制，我们将看一些例子。我们将从AutoEncoders的一般介绍开始，我们将讨论激活函数在输出层和损耗功能中的作用。然后，我们将讨论重建错误是什么。最后，我们将看待典型的应用，作为减少，分类，去噪和异常检测。本文包含2021年给出的AutoEncoders上的Phd级讲义的音符。

translated by 谷歌翻译

Collective discrete optimisation as judgment aggregation

Linus Boes , Rachael Colley , Umberto Grandi , Jerome Lang , Arianna Novaro

分类：人工智能

2021-12-01

许多重要的集体决策问题可以被视为离散优化问题的多档版本。例如，参与式预算是背包问题的集体版本;其他示例包括集体调度和集体跨越树。对于每个问题，而不是开发特定模型，而不是开发特定模型，以及特定的算法技术，我们建议在统治与加权问题的统治聚合框架中表示和解决它们。我们基于将设定评分功能与运营商耦合，提供了集体离散优化（CDO）规则的模块化定义，我们展示了它们如何概括为特定CDO问题开发的几个现有程序。我们还基于整数线性编程（ILP）的实现，并在集体跨越树的问题上测试。

translated by 谷歌翻译

Unravelling multi-agent ranked delegations

Rachael Colley , Umberto Grandi , Arianna Novaro

分类：人工智能

2021-11-25

我们介绍了一个多功能代理商的投票模型。这种型号概述了液体民主的两个方面：首先，代理商的代表团可以使用多个其他代理商的投票来确定自己的投票 - 例如，代理商的投票可能对应于可值得信赖的代理人票数的大多数结果;其次，代理商可以在多个代表团上提交排名，以便在他们的首选代表团参与周期时可以使用备份代表团。本文的主要焦点是解开程序的研究，使从代理商处收到的代表团投票转变为直接投票的概况，从中可以通过使用标准投票规则来确定获胜的替代方案。我们提出并研究了六个这样的解开程序，两个基于优化和四种使用贪婪的方法。我们研究了算法和公理性质，以及我们解开程序的相关计算复杂性问题，以针对药剂可以提交的选票类型的不同限制。

translated by 谷歌翻译